智能论文笔记

AirFormer: Predicting Nationwide Air Quality in China with Transformers

Yuxuan Liang , Yutong Xia , Songyu Ke , Yiwei Wang , Qingsong Wen , Junbo Zhang , Yu Zheng , Roger Zimmermann

分类：机器学习

2022-11-29

Air pollution is a crucial issue affecting human health and livelihoods, as well as one of the barriers to economic and social growth. Forecasting air quality has become an increasingly important endeavor with significant social impacts, especially in emerging countries like China. In this paper, we present a novel Transformer architecture termed AirFormer to collectively predict nationwide air quality in China, with an unprecedented fine spatial granularity covering thousands of locations. AirFormer decouples the learning process into two stages -- 1) a bottom-up deterministic stage that contains two new types of self-attention mechanisms to efficiently learn spatio-temporal representations; 2) a top-down stochastic stage with latent variables to capture the intrinsic uncertainty of air quality data. We evaluate AirFormer with 4-year data from 1,085 stations in the Chinese Mainland. Compared to the state-of-the-art model, AirFormer reduces prediction errors by 5%~8% on 72-hour future predictions. Our source code is available at https://github.com/yoshall/airformer.

translated by 谷歌翻译

Passive Non-line-of-sight Imaging for Moving Targets with an Event Camera

Conghe Wang , Yutong He , Xia Wang , Honghao Huang , Changda Yan , Xin Zhang , Hongwei Chen

分类：计算机视觉

2022-09-27

非视线（NLOS）成像是一种用于检测障碍物或角落周围物体的物体的新兴技术。关于被动NLOS的最新研究主要集中在稳态测量和重建方法上，这些方法显示出识别移动目标的局限性。据我们所知，我们提出了一种新颖的基于事件的无源NLOS成像方法。我们获得了基于事件的异步数据，其中包含NLOS目标的详细动态信息，并有效缓解由运动引起的斑点降解。此外，我们创建了第一个基于事件的NLOS成像数据集NLOS-ES，并且由时间表面表示提取基于事件的功能。我们通过基于事件的数据与基于框架的数据比较重建。基于事件的方法在PSNR和LPIP上表现良好，该方法比基于框架的方法好20％和10％，而数据量仅占传统方法的2％。

translated by 谷歌翻译

Document-aware Positional Encoding and Linguistic-guided Encoding for Abstractive Multi-document Summarization

Congbo Ma , Wei Emma Zhang , Pitawelayalage Dasun Dileepa Pitawela , Yutong Qu , Haojie Zhuang , Hu Wang

分类：自然语言处理

2022-09-13

多文件摘要中的一个关键挑战是捕获区分单个文档摘要（SDS）和多文件摘要（MDS）的输入文档之间的关系。现有的MDS工作很少解决此问题。一种有效的方法是编码文档位置信息，以帮助模型捕获跨文档关系。但是，现有的MDS模型（例如基于变压器的模型）仅考虑令牌级的位置信息。此外，这些模型无法捕获句子的语言结构，这不可避免地会引起生成的摘要中的混乱。因此，在本文中，我们提出了可以与MDS的变压器体系结构融合的文档意识到的位置编码和语言引导的编码。对于文档感知的位置编码，我们引入了一项通用协议，以指导文档编码功能的选择。对于语言引导的编码，我们建议使用简单但有效的非线性编码学习者进行特征学习，将句法依赖关系嵌入依赖关系掩码中。广泛的实验表明，所提出的模型可以生成高质量的摘要。

translated by 谷歌翻译

Masked Autoencoders Enable Efficient Knowledge Distillers

Yutong Bai , Zeyu Wang , Junfei Xiao , Chen Wei , Huiyu Wang , Alan Yuille , Yuyin Zhou , Cihang Xie

分类：计算机视觉

2022-08-25

本文研究了从预先训练的模型，尤其是蒙面自动编码器中提取知识的潜力。我们的方法很简单：除了优化掩盖输入的像素重建损失外，我们还将教师模型的中间特征图与学生模型的中间特征图之间的距离最小化。此设计导致一个计算高效的知识蒸馏框架，给定1）仅使用一个少量可见的补丁子集，2）（笨拙的）教师模型仅需要部分执行，\ ie，\ ie，在前几个中，向前传播输入层，用于获得中间特征图。与直接蒸馏微型模型相比，提炼预训练的模型显着改善了下游性能。例如，通过将知识从MAE预先训练的VIT-L提炼为VIT-B，我们的方法可实现84.0％的Imagenet Top-1精度，表现优于直接将微型VIT-L蒸馏的基线，降低1.2％。更有趣的是，我们的方法即使具有极高的掩盖率也可以从教师模型中进行鲁棒性蒸馏：例如，在蒸馏过程中仅可见十个斑块，我们的VIT-B具有竞争力的前1个Imagenet精度为83.6％，在95％的掩盖率中，只有十个斑块。 ;令人惊讶的是，它仍然可以通过仅四个可见斑（98％的掩盖率）积极训练来确保82.4％的Top-1 Imagenet精度。代码和模型可在https://github.com/ucsc-vlaa/dmae上公开获得。

translated by 谷歌翻译

Heterogeneous Multi-agent Zero-Shot Coordination by Coevolution

Ke Xue , Yutong Wang , Lei Yuan , Cong Guan , Chao Qian , Yang Yu

分类：神经与进化计算 | 人工智能 | 机器学习

2022-08-09

可以通过看不见的合作伙伴生成可以实现零拍打协调（ZSC）的代理是在合作多代理增强学习（MARL）中的新挑战。最近，一些研究通过在培训过程中将代理暴露于不同的伴侣中，从而在ZSC中取得了进展。他们通常在训练伴侣时涉及自我竞争，因为他们隐含地假设任务是同质的。但是，许多现实世界的任务都是异质的，因此以前的方法可能会失败。在本文中，我们首次研究了异质ZSC问题，并提出了一种基于协同进化的通用方法，该方法通过三个子过程进行了协调的两个代理和合作伙伴种群：配对，更新和选择。协作烹饪任务的实验结果表明需要考虑异质环境，并说明我们所提出的方法是异构合作MARL的有前途解决方案。

translated by 谷歌翻译

SsciBERT: A Pre-trained Language Model for Social Science Texts

Si Shen , Jiangfeng Liu , Litao Lin , Ying Huang , Lin Zhang , Chang Liu , Yutong Feng , Dongbo Wang

分类：自然语言处理

2022-06-09

社会科学的学术文献是记录人类文明并研究人类社会问题的文献。随着这种文献的大规模增长，快速找到有关相关问题的现有研究的方法已成为对研究人员的紧迫需求。先前的研究，例如SCIBERT，已经表明，使用特定领域的文本进行预训练可以改善这些领域中自然语言处理任务的性能。但是，没有针对社会科学的预训练的语言模型，因此本文提出了关于社会科学引文指数（SSCI）期刊上许多摘要的预培训模型。这些模型可在GitHub（https://github.com/s-t-full-text-knowledge-mining/ssci-bert）上获得，在学科分类和带有社会科学文学的抽象结构 - 功能识别任务方面表现出色。

translated by 谷歌翻译

Can CNNs Be More Robust Than Transformers?

Zeyu Wang , Yutong Bai , Yuyin Zhou , Cihang Xie

分类：计算机视觉

2022-06-07

视觉变形金刚最近的成功是在图像识别中挥舞着卷积神经网络（CNN）的长期优势。具体而言，就稳健性而言，最近的研究发现，无论训练设置如何，变压器本质上比CNN更强大。此外，人们认为，变形金刚的这种优越性应该在很大程度上被认为是他们的自我注意力型建筑本身。在本文中，我们通过密切研究变压器的设计来质疑这种信念。我们的发现导致了三种高效的体系结构设计，以提高鲁棒性，但很简单，可以在几行代码中实现，即a）修补输入图像，b）扩大内核大小，c）降低激活层和归一化层。将这些组件融合在一起，我们能够构建纯CNN体系结构，而没有任何类似注意力的操作，这些操作比变形金刚更强大，甚至更健壮。我们希望这项工作可以帮助社区更好地了解强大的神经体系结构的设计。该代码可在https://github.com/ucsc-vlaa/robustcnn上公开获得。

translated by 谷歌翻译

AI-based Reconstruction for Fast MRI -- A Systematic Review and Meta-analysis

Yutong Chen , Carola-Bibiane Schönlieb , Pietro Liò , Tim Leiner , Pier Luigi Dragotti , Ge Wang , Daniel Rueckert , David Firmin , Guang Yang

分类：人工智能 | 计算机视觉

2021-12-23

压缩传感（CS）一直在加速磁共振成像（MRI）采集过程中的关键作用。随着人工智能的复苏，深神经网络和CS算法正在集成以重新定义快速MRI的领域。过去几年目睹了基于深度学习的CS技术的复杂性，多样性和表现的大量增长，这些技术致力于快速MRI。在该荟萃分析中，我们系统地审查了快速MRI的深度学习的CS技术，描述了关键模型设计，突出突破，并讨论了有希望的方向。我们还介绍了一个综合分析框架和分类系统，以评估深度学习在基于CS的加速度的MRI的关键作用。

translated by 谷歌翻译

Spatial-Temporal Super-Resolution of Satellite Imagery via Conditional Pixel Synthesis

Yutong He , Dingjie Wang , Nicholas Lai , William Zhang , Chenlin Meng , Marshall Burke , David B. Lobell , Stefano Ermon

分类：计算机视觉 | 人工智能

2021-06-22

高分辨率卫星图像已证明是可用于广泛的任务，包括衡量全球人口，当地经济生计和生物多样性，其中许多其他任务。不幸的是，高分辨率图像既不经常收集，购买昂贵，难以高效，有效地缩放这些下游任务在两次和空间。我们提出了一种新的条件像素综合模型，它使用丰富，低成本，低分辨率的图像，在位置和时间内产生准确的高分辨率图像。我们表明，我们的模型在钥匙下游任务 - 对象计数上达到了照片 - 现实的样本质量和竞争基线的竞争基线 - 特别是在地面上的条件正在快速变化的地理位置中。

translated by 谷歌翻译

TransFG: A Transformer Architecture for Fine-grained Recognition

Ju He , Jie-Neng Chen , Shuai Liu , Adam Kortylewski , Cheng Yang , Yutong Bai , Changhu Wang

分类：计算机视觉

2021-03-14

旨在识别来自子类别的对象的细粒度视觉分类（FGVC）是一个非常具有挑战性的任务，因为固有的微妙级别差异。大多数现有工程主要通过重用骨干网络来提取检测到的歧视区域的特征来解决这个问题。然而，该策略不可避免地使管道复杂化并推动所提出的区域，其中大多数物体的大多数部分未能定位真正重要的部分。最近，视觉变压器（VIT）在传统的分类任务中表现出其强大的表现。变压器的自我关注机制将每个补丁令牌链接到分类令牌。在这项工作中，我们首先评估vit框架在细粒度识别环境中的有效性。然后，由于注意力的强度，可以直观地被认为是令牌重要性的指标，我们进一步提出了一种新颖的部分选择模块，可以应用于我们整合变压器的所有原始注意力的变压器架构进入注意地图，用于指导网络以有效，准确地选择鉴别的图像斑块并计算它们的关系。应用对比损失来扩大混淆类的特征表示之间的距离。我们将基于增强的变压器的模型Transfg命名，并通过在我们实现最先进的绩效的五个流行的细粒度基准测试中进行实验来展示它的价值。提出了更好地理解模型的定性结果。

translated by 谷歌翻译